from tika import parser

def extract_file_content(file_path):
    # 解析文件内容
    raw = parser.from_file(file_path)

    # 提取内容和元数据
    content = raw['content']        # 提取的文本内容（保留段落、换行等结构）
    metadata = raw['metadata']      # 提取的元数据（如作者、标题等）
    status = raw['status']          # 请求状态码（200 表示成功）

    return {
        'content': content.strip(),  # 提取的文本内容
        'metadata': metadata,        # 元数据信息
        'status': status
    }

if __name__ == "__main__":
    # 示例调用
    filename = "1、芯百特5000万元科技金融授信业务申请报告"
    file_path = f"/home/mandy/my_project/ktransformers/task/BOC/boc_report/auto_credit_report_internal/data/case1/input/{filename}.docx"
    out_path = f"/home/mandy/my_project/ktransformers/task/BOC/boc_report/server/backend/report/output/{filename}.txt"
    result = extract_file_content(file_path)
    print("1111111111111", out_path)
    with open(out_path, "w") as f:
        f.write(result['content'])

    # print("提取内容:\n", result['content'])  # 显示前500字符
    # # print("\n元数据:\n", result['metadata'])